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摘 要 


T tit 


微 表 情 是 一 种 持续 时 间 极 短 、 不 易 被 察觉 的 面部 动作 ， 揭示 了 个 体 的 真实 情绪 ， 可 以 被 广泛 地 应 用 
识别 等 领域 。 而 微 表 情 检 测 的 研究 受到 小 样本 问题 的 限制 。 针 对 该 问题 ,本文 结 合计 算 机 视觉 技术 与 


认 知 心理 学 实验 方法 进行 探索 。 首 先 ， 结 合 眼 动 技 术 和 呈现 -判断 范式 与 国 下 情绪 启动 效应 的 行为 实验 范式 ， 
考察 微 表 情 识 别 中 选择 注意 分 配 的 认 知 机 制 ， 细 化 人 类 识别 微 表 情 时 的 特征 兴趣 区 域 。 其 次 ， 结 合 人 类 注意 机 
制 ， 提 出 基于 自 监 督学 习 的 多 模 态 微 表 情 检 测 方法 。 通 过 理论 和 关键 技术 的 突破 ,为 真实 场景 下 微 表 情 检 测 的 


应 用 黄 定 基础 。 
关键 词 
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1 问题 提出 


微 表 情 是 一 种 持续 时 间 极 短 、 不 易 被 察觉 的 
面部 动作 ,往往 会 在 高 风险 情况 下 产生 (Ekman & 
Friesen, 1969)。 它 由 Haggard 和 Isaacs 于 1966 年 
发 现 (Haggard & Isaacs，1966)， 之 后 由 Ekman 和 
Friesen 命名 。 微 表情 的 持续 时 间 通 常 在 1/25 到 
1/5 秒 之 间 (Ekman & Friesen，1969)， 是 非常 重要 
的 非 语 言 交流 线索 ,， 它 可 以 揭示 真实 的 情绪 和 个 
人 的 心理 状态 (Haggard & Isaacs, 1966)。 作为 谎言 
识别 的 重要 线索 之 一 ， 微 表情 的 有 效 性 甚至 显著 
高 于 言语 内 容 、 语 音 、 语 调 、 身 体 姿势 等 其 他 线 
索 (Owayjan et al., 2012)， 可 以 被 广泛 地 应 用 于 国 
家 安全 、 司 法 实践 、 临 床 诊 断 、 学 生 教 育 、 卫 生 
防疫 等 领域 。 例 如 微 表情 可 以 作为 重要 线索 来 帮 
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微 表情 检测 ， 小 样本 问题 , 人 类 注意 机 制 ， 自 监 


督学 习 ， 深 度 信息 


助 此 次 新 冠 疫情 的 排查 工作 , 包括 甄别 人 员 是 否 
对 旅行 史 、 密 切 接触 情况 以 及 发 热 症 状 等 有 所 
隐瞒 。 
持续 时 间 短 和 动作 幅度 低 是 微 表情 的 主要 特 
征 。 如 图 1 所 示 , 被 试 通过 极其 轻微 的 皱眉 流露 
出 厌恶 的 情绪 , 但 观察 者 单纯 通过 肉眼 很 难 在 视 
频 中 捕捉 人 脸 微 表情 。 微 表情 的 人 工 检测 和 识别 
需要 花费 大 量 的 人 力 物 力 , 并且 参与 分 析 的 人 员 
需要 经 过 专业 的 训练 。Ekman 在 2002 年 开发 了 第 
个 微 表 情 培训 工具 (Micro-Expression Training 
Tool, METT) (Ekman，2003)， 甚 目的 是 训练 人 类 
检测 和 识别 微 表 情 。 然 而 即使 是 经 过 培训 的 专家 ， 
其 肉眼 的 识别 率 也 低 于 50% (Ekman, 2003)。 因 此 ， 
为 了 将 微 表 情 分 析 应 用 到 实际 场景 中 ， 对 微 表 情 
智能 检测 与 识别 的 研究 十 分 迫切 。 
本 研究 将 通过 计算 机 和 心理 学 的 交叉 ， 研 发 
人 脸 微 表情 智能 检测 系统 ， 具 有 重要 的 理论 意义 
和 巨大 的 应 用 价值 。 针 对 微 表情 小 样本 问题 ， 首 
先 在 心理 学 领域 ， 研 究 面 向 微 表 情 的 注意 力 机 制 ， 
高 效 提取 微 表 情 特征 ,提升 系统 对 微 表 情 动 作 的 
敏感 度 和 可 靠 性 。 其 次 ,在 计算 机 视觉 技术 领域 ， 
针对 小 样本 问题 ， 除 了 进一步 扩充 数据 容量 ， 在 
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图 1 微 表 情 样 例 : 紧张 情绪 ， 眉 心 处 轻微 向 内 收拢 ， 持续 时 间 约 300 ms。( 资 料 来 源 : CASME II 数据 库 , OXiaolan Fu) 


算法 层面 ， 主 要 是 通过 将 其 余 相 似 类 型 的 数据 特 
征 进 行 迁移 ， 或 者 通过 挖掘 数据 自身 的 特征 信息 
进行 学 习 ( 无 监督 / 目 监 督学 习 )。 基 于 上 述 研究 方 
法 ,本 研究 提出 基于 人 类 注意 机 制 的 多 分 支 自 监 
督学 习 模 型 ,实现 微 表情 智能 检测 ,进一步 避免 
了 小 样本 问题 对 微 表 情 研 究 的 限制 。 此 外 ,为 了 
增强 网 络 构 建 自 监督 信息 的 能 力 ， 本 研究 利用 包 
含 场景 深度 信息 的 微 表情 样本 ,实现 多 模 态 的 微 
表情 分 析 。 


2 微 表 情 智能 分 析 研究 现状 


2.1 基于 计算 机 视觉 技术 的 微 表 情 国内 外 研究 

现状 及 发 展 动态 分 析 

VE 10 年 来 ， 微 表情 研究 越 来 越 受 到 科学 领域 
和 大 众 媒体 的 重视 ， 如 图 2 所 示 ， 研 究 人 员 试 图 
通过 计算 机 科学 与 心理 学 的 结合 ,研发 自动 检测 
和 识别 微 表 情 的 技术 ， 以 帮助 人 们 更 有 效 地 利用 
微 表 情 线 索 来 识别 谎言 。 微 表情 识别 是 对 已 知 存 
在 微 表 情 的 片段 进行 情感 分 类 ， 技 术 相 对 成 熟 
(See et al., 2019)。 反 之 ， 微 表情 检测 是 在 长 视频 中 
准确 定位 微小 短暂 的 微 表 情 片段 ， 任 务 十 分 具有 
挑战 性 ， 并且 相关 的 论文 数量 仍然 相对 较 少 , 但 
其 研究 具有 很 高 的 实用 价值 。 如 果 能 在 一 段 视频 
中 准确 地 检测 到 某 个 时 间 点 有 微 表 情 出 现 ， 那 么 


就 说 明 这 个 人 在 这 个 时 刻 可 能 会 有 异常 。 

由 于 微 表情 具有 强度 低 和 持续 时 间 短 的 特点 ， 
微 表 情 相 关 特 征 很 难 提 取 ， 这 对 微 表 情 检 测 造 成 
了 一 定 的 困难 。 同 时 ， 当 前 微 表情 检测 算法 的 准 
确 率 不 够 高 ， 即 使 是 对 严格 控制 的 实验 环境 中 采 
集 的 微 表 情 视频 进行 检测 ,微小 的 面部 运动 也 会 
导致 误 检 。 男 外 ， 因 为 微 表情 样本 的 人 工 标注 十 
分 困难 , 目前 只 有 6 个 公开 的 自发 微 表情 数据 库 ， 
包括 中 国 科 学 院 心 理 研 究 所 发 布 的 CASME 系列 
(Qu et al., 2018; Yan et al., 2013, 2014), 芬兰 奥 卢 
大 学 发 布 的 SMIC (Li et al., 2017)、 英 国 曼 彻 斯 特 
城市 大 学 发 布 的 SAMM (Davison, Lansley, et al., 
2018) 和 中 国 山东 大 学 发 布 的 MMEW (Ben et al., 
2021), 视频 总 量 约 1000 个 , 这 是 典型 的 小 样本 问 
题 。 大 数据 驱动 的 深度 学 习 已 经 在 诸多 领域 获得 
成 功 , 但 是 微 表 情 小 样本 问题 限制 了 基于 深度 学 
习 的 微 表情 检测 研究 。 

因此 ,本 研究 面向 微 表 情 检 测 方 法 ， 针 对 微 
表情 小 样本 问题 , 分 别 从 注意 力 机 制 、 基 于 大 量 
人 脸 和 表情 数据 库 的 自 监督 学 习 和 深度 信息 三 方 
面 来 解决 这 一 问题 。 本 节 将 首先 介绍 微 表 情 检 测 
的 相关 方法 的 研究 现状 , 然后 对 本 研究 中 应 用 的 
模式 识别 技术 理论 和 方法 ( 即 注意 力 机 制 、 自 监督 
学 习 和 深度 信息 ) 的 国内 外 研究 现状 进行 综述 。 


E 微 表 情 识 别 微 表情 检测 ”一 一 微 表 情 检 测 与 识别 
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2.1.1 ” 微 表 情 检测 的 研究 现状 

目前 通过 计算 机 技术 对 微 表 情 进 行 分 析 成 为 
了 一 个 研究 热点 ， 国 内 很 多 团队 都 开展 了 相关 的 
科研 工作 ， 比 如 中 国 科学 院 心 理 研究 所 傅 小 兰 团 
BA, 清华 大 学 刘 永 进 团 队 ， 中 国 科学院 自动 化 研 
究 所 陶 建 华 团队 , 复旦 大 学 张 军 平 团队 ， 上 海 交 
通 大 学 李 生 红 团 队 ， 东 南大 学 郑 文明 、 宗 源 团队 ， 
HZR HEE HS ABA, LL AR RS BEALE AT BA, 
WITIKKA, RAIRA, 北京 交通 大 
学 安 高 云 团队 ,江西 中 医药 大 学 申 寻 兵团 队 ,， 西 
南大 学 陈 通 团队 , 北京 科技 大 学 马 惠 敏 团队 、 谢 
仑 团队 和 文 瑞 聪 团队 ,南京 工程 学 院 黄 晓 华 团 队 ， 
中 国 科 学 技术 大 学 陈 恩 红 团 队 , 江苏 大 学 毛 启 容 
团队 , 北京 师范 大 学 孙 波 团队 , 合肥 工业 大 学 詹 
曙 团 队 ， 南 京 晓 庄 学 院 郑 察 团 队 , 江西 师范 大 学 
部 克 十 团队 等 。 然 而 ,大 部 分 团队 主要 研究 了 微 
表情 识别 方法 ， 微 表情 检测 相关 研究 仍 有 待 探索 。 

微 表 情 检 测 方法 主要 有 两 种 思路 ， 一 种 是 通 
过 比较 帧 间 特 征 差异 检测 微 表 情 ， 另 一 种 是 通过 
机 器 学 习 提 取 微 表情 的 特征 进而 对 微 表 情 帧 和 非 
微 表 情 帧 进行 分 类 。 

目前 大 多 数 方法 利用 特征 差异 来 检测 微 表 情 ， 
主要 流程 是 计算 时 间 窗 口中 所 提取 特征 的 差异 ， 
通过 在 整个 视频 中 设置 浆 值 ,可 以 发 现 最 明显 的 
脸 部 运动 。 和 常用 的 特征 包括 : 分 兰 奥 卢 大 学 赵 国 
英 团 队 使 用 的 局 部 二 值 模式 (LBP) (Moilanen et al., 
2014)， 马 来 西亚 多 媒体 大 学 的 深 诗 婷 等 人 (Liong 
et al., 2015), IK EES A pB (Wang et al., 2016) 
使 用 的 光 流 相关 特征 ， 英国 曼彻斯特 城市 大 学 
Moi Hoon Yap 团队 使 用 的 3D-HOG (Davison, 
Merghani, et al., 2018) 等 。 这 些 方法 的 主要 优点 是 
能 够 在 基于 微 表 情 持续 时 间 的 请 动 窗口 内 进行 帧 
之 间 的 比较 。 然 而 , 通常 情况 下 , 仪 窗 口中 的 第 一 
帧 和 最 后 一 帧 被 用 于 当前 帧 的 特征 差 计 算 ， 这 种 
方法 没有 考虑 到 微 表情 的 时 间 变 化 模式 。 特 征 差 
异 方法 的 另 一 个 缺点 是 无 法 区 分 微 表情 和 其 他 类 
型 的 头 部 运动 ， 尤 其 是 在 长 视频 中 ,特征 差异 方 
法 会 发 现 许 多 高 于 阔 值 的 运动 , 从 而 导致 许多 假 
阳性 。 

WS, 为 了 增强 检测 方法 区 分 微 表情 与 其 他 
面部 运动 的 能 力 ， 基 于 机 器 学 习 / 深 度 学 习 的 微 
表情 检测 方法 刚刚 兴起 。 目 前 只 有 十 余 篇 相关 论 
MAA, 例如 Wang 等 人 (2021) 发 表 的 MESNet、 
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北京 科技 大 学 谢 伦 团队 提出 的 局 部 双 线 卷 积 神 
经 网 络 (Pan et al., 2020)、 中 国电 子 科 技 集团 电子 
科学 研究 院 谢 海 永 团 队 提出 的 基于 光 流 和 LSTM 
的 检测 方法 (Ding et al., 2019), fat “IRA EFS FET 
大 学 Vlado Menkovski 团队 提出 的 结合 光 流 和 
RNN 的 检测 方法 (Verburg & Menkovski, 2019)、 芬 
兰 奥 卢 大 学 赵 国 英 团队 提出 的 LBP-TOP+SVM 检 
测 方法 (Tran et al., 2017) 等 、Li 等 人 (Li，Soladie， 
et al., 2019; Li et al., 2020) 提 出 具备 微 表 情 普 适 化 
的 局 部 时 域 模式 ， 进 而 通过 机 器 学 习 分 类 器 检测 
微 表 情 。 当 前 基于 深度 学 习 的 微 表 情 检 测 方法 
研究 受到 小 样本 问题 限制 , 无 法 应 用 到 实际 场 
景 中 。 
2.1.2 ”相关 模式 识别 中 的 技术 理论 和 方法 研究 现状 

基于 物体 的 注意 力 的 神经 机 制 ， 麻 省 理工 学 
院 Baldauf 和 Desimone 于 2014 年 在 《Science 》 
杂志 上 发 表 了 其 研究 成 果 。 注 意 力 属于 认 知 过 程 
的 一 部 分 ， 是 一 种 导致 局 部 刺激 的 意识 水 平 提高 
的 知 党 选择 性 的 集中 , 是 心理 学 中 研究 最 热门 的 
主题 之 一 。 计 算 机 领域 中 注意 力 机 制 的 提出 使 得 
深度 网 络 能 够 忽略 无 关 信息 而 关注 和 捕捉 重 点 特 
征 。 在 图 像 处 理 领 域 , 相关 人 研究 主要 分 为 强 注 意 
Ji (hard attention) 和 软 注 意 力 (soft attention) 两 种 
类 型 ， 其 中 强 注意 力 关 注 每 个 点 可 能 具备 的 注意 
HA, 并 且 强 调 图 像 的 动态 变化 ,目前 主要 应 用 在 
图 像 裁剪 领域 (Mnih et al., 2014); 软 注意 力 则 更 
关注 区 域 或 者 通道 ,并 且 通 过 网 络 生 成 确定 的 注 
意 力 模 块 ,该 机 制 在 深度 网 络 上 得 到 了 广泛 的 应 
用 (Fu et al., 2019; Li et al., 2018)。 由 于 微 表 情 微 
小 有 旦 短暂 的 特性 , Wen 等 (2021)、Li 等 (2021) 以 及 
其 他 研究 团队 尝试 引入 注意 力 机 制 ,提升 网 络 针 
对 微 表情 特征 提取 的 能 力 。 然 而 ,由 于 针对 微 表 
情 自 身 的 认 知 机 制 中 注意 力 分 配 的 研究 较 少 ， 微 
表情 特征 提取 的 有 效 性 需要 进一步 提升 。 

2015 Œ, LeCun, Bengio 和 Hinton 联合 在 
«Nature 》 林 志 发 表 了 一 篇 深度 学 习 的 综述 文章 
(LeCun et al., 2015)。 文 章 最 后 指出 , 像 人 类 视觉 
系统 一 样 的 无 监督 的 深度 学 习 是 一 个 重要 的 方 
癌 。 自 监督 学 习 是 无 监督 学 习 的 一 种 方法 (Jing & 
Tian, 2020), 通过 在 大 规模 的 无 监督 数据 中 利用 
辅助 任务 挖 气 自身 的 监督 信息 ,并 利用 这 种 构造 
的 监督 信息 对 网 络 进行 训练 ， 从 而 可 以 学 习 到 对 
下 游 任 务 有 价值 的 特征 信息 。 尽 管 单个 的 无 标注 
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样本 相 较 于 已 标注 的 样本 所 包括 的 信息 要 少 , 但 
是 如 果 能 获取 大 量 无 监督 数据 ,并且 算 法 可 以 有 
效 地 通过 辅助 任务 获取 相应 的 监督 信息 , 那么 相 


比 大 规模 的 耗 时 耗 力 的 手工 特征 构建 和 数据 标注 ， 


自 监督 算法 将 有 更 好 的 效率 和 实用 性 。 自 监督 学 
习 已 经 在 图 片 Patch 相对 位 置 预测 (Doersch et al., 
2015)、 图 像 修复 (Pathak et al., 2016)、 图 片 旋转 角 
度 预 测 (Gidaris et al.，2018) 、 图 像 色 彩 预 测 
(Larsson et al，2017) 、 视 频 中 目标 检测 (Li，Liu， 
et al., 2019) 、 视 频 顺 序 预测 (Fernando et al., 2017) 
等 任务 中 实现 利用 无 监督 数据 构造 自身 监督 信息 ， 
获得 了 可 以 和 监督 学 习性 能 媲美 的 结 

深度 信息 为 图 像 分 析 提 供 了 更 多 的 几何 信息 ， 
有 助 于 提升 人 脸 与 表情 识别 的 可 靠 性 。 国 内 外 对 
其 展开 了 大 量 的 研究 ,例如 Danelakis 等 (2016) 提 
出 了 利用 面部 坐标 的 GeoTopo+ 特 征 ， 以 创建 三 个 
子 特征 来 捕获 面部 的 拓扑 和 几何 信息 ; 国内 厦门 
大 学 雷 理 奇 团队 提出 了 结合 深度 图 和 SURF 算法 
的 3D 人 脸 识 别 (Ma et al., 2017); 中 国 科 学 技术 大 
学 於 俊 团 队 提出 了 基于 深度 图 的 姿势 估计 和 人 脸 
重 构 (Luo et al., 2019) 等 。 由 于 面部 肌肉 运动 会 引 
起 其 对 应 深度 信息 的 变化 , 引入 深度 信息 可 以 帮 
助 系统 更 加 灵敏 地 检测 到 人 脸 表情 的 变化 。 通 过 
背 鉴 结合 深度 图 的 人 脸 表 情 研究 (Cai et al., 2020), 
将 有 助 于 开展 结合 深度 信息 的 人 脸 微 表情 检测 的 
分 析 。 
2.2 ”本 文 贡献 

由 于 微 表 情 是 一 种 持续 时 间 极 短 、 不 易 被 察 
觉 的 面部 动作 ， 导致 了 微 表 情 的 诱发 、 采 集 和 人 
工 标注 十 分 困难 。 样 本 采集 和 标注 往往 需要 大 量 
的 人 力 物 力 ， 成 本 很 高 。 这 一 情况 限制 了 微 表 情 
数据 库 的 创建 ， 该 小 样本 问题 梭 柑 了 结合 机 器 学 
习 的 微 表情 检测 方法 的 研究 。 如 图 3 AN, 本 研 
究 通 过 人 研究 注意 力 机 制 增强 网 络 针 对 微 表情 特征 
提取 能 力 ,以 及 通过 自 监督 学 习 的 方法 实现 微 表 
情 检 测 ， 从 而 避免 了 小 样本 问题 的 限制 。 此 外 , 由 
于 微 表 情 的 特性 ， 现 实生 活 中 的 很 多 视频 中 存在 
大 量 未 标注 的 微 表 情 , 例 如 在 访谈 节日 中 ， 当 被 
访问 者 不 想 透 露 真 实情 绪 时 ,往往 脸 部 会 出 现 微 
表情 。 本 研究 提出 的 方法 能 够 通过 在 无 标注 视频 
中 挖掘 微 表 情 片 段 ， 实 现 微 表情 样本 量 的 扩充 ， 
从 而 解决 微 表 情 小 样本 问题 ， 并 促进 传统 微 表 情 
检测 方法 的 性 能 提升 。 
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传统 结合 机 器 学 习 


微 表 情 检测 方法 
促进 
限制 


微 表情 
小 样本 问题 


避免 小 样本 问题 , 
改进 当前 方法 < 


基于 人 类 注意 机 制 
的 多 分 支 自 监督 学 


习 微 表情 检测 方法 


ECA 


解决 小 样本 问题 ， 
实现 样本 量 扩 增 
图 3 本 人 研究 提出 的 微 表 情 检 测 方 法 与 微 表 情 小 样本 问题 


关系 图 


首先 , 本 研究 开展 基于 心理 学 微 表 情 认 知 机 
制 中 注意 力 资源 的 相关 探索 ,发现 针对 微 表 情 特 
性 的 注意 力 机 制 ， 从 而 有 效 、 直 接地 使 模型 从 输 
入 信息 中 就 获取 微 表情 重要 特征 ， 并 通过 网 络 从 
多 维度 (时 域 . 空 间 域 和 通道 域 ) 进 一 步 生 成 相关 注 
意 力 模块 ,在 样本 量 有 限 的 情况 下 ,提升 网 络 对 
微 表情 特征 的 提取 性 能 。 

其 次 ,本 研究 提出 基于 人 类 注意 机 制 的 多 分 
MAME SATIS, 在 预 训练 的 过 程 中 从 大 量 无 
标注 视频 中 学 习 时 空 特征 ， 从 而 实现 下 游 任务 即 
微 表 情 的 检测 。 这 一 方法 避免 了 小 样本 问题 对 传 
统 有 监督 机 副 学 习 方 法 的 限制 , 并 且 该 方法 具有 
普 适 性 ,为 后 续 不 同 实际 场景 的 微 表情 检测 提供 
了 技术 基础 。 

最 后 ， 目 前 的 微 表 情 发 布 数据 均 为 视频 样本 ， 
并 没有 包括 相应 的 深度 信息 。 本 研究 将 基于 我 们 
研究 团队 正在 创建 的 首 个 包含 图 像 深 度 信息 的 微 
表情 数据 库 ， 开展 基于 深度 信息 的 微 表情 检测 ， 
为 日 监督 学 习 微 表 情 检 测 模 型 的 辅助 任务 提供 更 
多 信息 。 

本 人 研究 提出 的 基于 人 类 注意 机 制 的 多 分 支 自 
监督 学 习 的 微 表 情 检 测 方法 ， 避免 了 小 样本 问题 
的 限制 ， 使 在 国安 审讯 、 医 疗 问 诊 等 复杂 真实 场 
景 下 微 表 情 分 析 技 术 的 应 用 成 为 可 能 。 


3 ”研究 构想 


3.1 基础 理论 和 模型 的 研究 构想 
微 表 情 检测 在 谎言 识别 、 医 疗 诊断 等 领域 都 
有 着 广阔 的 应 用 前 景 。 然 而 ， 由 于 微 表 情 样 本 和 采 
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集 和 标注 困难 , 造成 小 样本 问题 ， 限 制 了 微 表情 
检测 方法 的 研究 。 针 对 这 一 问题 , 本 研究 从 两 个 
方面 开展 研究 ,首先 通过 人 类 注意 机 制 的 研究 ， 
提升 深度 网 络 对 微 表情 特征 提取 能 力 ; 其 次 ， 利 
用 无 标注 样本 训练 自 监督 模型 ,构建 普 适 且 高 效 
的 微 表情 检测 网 络 ,图 4 展示 了 本 研究 的 研究 框架 。 
3.1.1 ” 微 表情 识别 的 人 类 注意 机 制 分析 

(DD) 心理 学 认 知 微 表情 的 注意 力 资源 分 配 研究 

首先 ,在 心理 学 层面 ,面孔 中 的 许多 信息 都 
会 引导 注意 朝向 。 基 于 认 知 心理 学 的 行为 实验 方 
法 , 采用 呈现 -判断 范式 , 考察 人 在 进行 微 表情 识 
别 时 的 注视 线索 。 实 验 结论 有 助 于 细 化 微 表 情 的 
特征 兴趣 区 域 ， 同 时 帮助 解决 微 表 情 局 部 信息 全 
局 化 的 合理 性 。 其 次 ， 阀 下 情绪 启动 效应 是 情绪 
启动 效应 的 一 种 经 典范 式 。 利 用 微 表情 的 表现 方 
式 与 国 下 情绪 启动 方式 一 致 这 一 特点 ， 将 微 表 情 
识别 分 为 无 意识 情绪 启动 阶段 和 情绪 知觉 理解 阶 
段 ， 并 进行 实验 验证 。 前 期 无 意识 阶段 的 研究 可 
以 提升 系统 局 部 特征 提取 的 能 力 ， 后 期 决策 的 研 
究 可 以 帮助 解决 微 表情 特征 全 局 空间 整合 的 问题 。 

(2) 针 对 微 表 情 检 测 的 注意 力 机 制 设计 

在 计算 机 视觉 层面 ,利用 针对 微 表 情 的 注意 
朝向 和 大 脑 意识 的 认 知 阶段 ， 帮助 网 络 从 输入 信 
息 中 选择 重要 的 特征 ,进而 结合 多 维度 的 注意 力 
机 制 ， 从 时 域 、 空 间 域 以 及 通道 域 构建 注意 力 模 
块 ， 设 计 针 对 微 表情 局 部 特征 提取 和 全 局 决策 的 
注意 力 机 制 ， 提 升 局 部 信息 整体 融合 的 有 效 性 ， 
从 算法 层面 优化 受 限 于 小 样本 问题 的 微 表情 检测 
方法 。 
31.2 ”多 分 支 自 监督 学 习 的 微 表情 检测 研究 

针对 微 表情 训练 样本 少 的 问题 ,我 们 提出 通 
过 构建 多 分 支 自 监 督学 习 模 型 ,设计 辅助 任务 ， 
使 模型 在 大 量 包 含 人 脸 及 发 生 面 部 表情 的 视频 中 
构建 自 监督 信息 ,提取 微 表 情 关 键 区 域 的 时 空 特 


微 表 情 识 别 的 人 类 
注意 机 制 分 析 


基于 人 类 注意 机 制 的 多 
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ÎE, 最 后 通过 微调 将 模型 应 用 到 下 游 任务 中 。 这 
种 无 监督 学 习 模 型 的 设计 可 以 避免 小 样本 问题 对 
微 表 情 检 测 的 限制 ,并 为 适应 后 续 实 际 场景 的 微 
表情 检测 提供 可 能 。 

除了 传统 的 彩色 图 像 (RGB) 模 态 ,深度 信息 
是 体现 视点 和 场景 对 象 表 面 之 间距 离 的 多 模 态 信 
KA, 直接 反应 了 可 见 表 面 的 几何 形状 。 由 于 微 表 
情 是 脸 部 的 微小 运动 ， 深度 信息 的 补充 可 以 帮助 
提取 微 表 情 特 征 。 本 研究 将 结合 深度 信息 进行 微 
表情 检测 方法 的 探索 , 通过 利用 深度 流 和 RGB 图 
R, 仿真 生成 深度 图 来 构建 辅助 任务 , 提升 自 监 
督学 习 提取 监督 信息 的 能 力 ， 从 而 增强 算法 检测 
微 表情 的 性 能 。 
3.1.3 ”基于 人 类 注意 机 制 的 多 分 支 自 监督 学 习 网 

络 的 微 表 情 检测 

通过 结合 基于 人 类 注意 机 制 和 多 分 支 自 监督 
模型 ， 本 研究 创建 了 能 够 高 效 提取 针对 微 表 情 特 
征 的 无 监督 微 表情 检测 方法 ,克服 微 表 情 小 样本 
问题 的 限制 , 并 有 助 于 无 标注 视频 中 微 表情 样本 
的 检测 与 时 间 标 注 (起 始 / 终 止 帧 )， 从 而 实现 微 表 
情 的 样本 扩 增 。 此 外 , 该 自 监督 模型 的 建立 为 复 
杂 场 景 下 微 表 情 检 测 的 应 用 葛 定 了 基础 。 
3.2 ”关键 技术 的 研究 构想 

本 人 研究 融合 了 计算 机 视觉 和 认 知 心理 学 , 属 
于 模式 识别 系统 及 应 用 与 认 知 心理 学 的 跨 学 科 交 
又 领域 的 研究 。 如 图 5 Bras, 为 了 研究 在 小 样本 
问题 限制 下 的 微 表情 检测 方法 ， 本 人 研究 通过 基于 
心理 学 认 知 的 注意 力 机 制 研 究 , 优化 微 表 情 特征 
提取 过 程 ， 并 搭建 基于 人 类 注意 机 制 的 多 分 支 自 
监督 学 习 网 络 ， 从 而 实现 无 监督 微 表 情 检 测 。 
3.2.1 ” 微 表 情 认 知 的 注意 力 机 制 分 析 

在 注意 力 机 制 研究 部 分 , 我 们 首先 开展 微 表 
情 识 别 的 认 知 研究 ， 探 索 认 知 过 程 中 的 注意 力 资 
源 变 化 。 然 后 ， 基 于 心理 学 原理 和 相关 实验 结 
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图 5 ”基于 人 类 注意 机 制 的 多 分 支 自 


结合 计算 机 视觉 技术 ,在 样本 量 有 限 的 情况 下 ， 
搭建 针对 微 表 情 的 注意 力 模块 ， 提 升 计算 模型 学 
习 和 整合 微 表情 特征 的 能 

(1) 心 理学 认 知 微 表情 的 注意 力 资源 分 配 人 研究 

观察 者 的 注意 力 朝 向 受到 面孔 中 的 诸多 信息 
的 影响 。 脑 成 像 研 究 表 明 , 与 中 性 面孔 相 比 , 情绪 
面孔 前 注意 阶段 的 加 工 可 以 导致 视 皮 层 激活 增强 ， 
反映 了 对 人 情绪 面孔 注意 朝向 的 增强 。 因 此 ,本 研 
究 基 于 认 知 心理 学 的 行为 实验 方法 ， 采 用 呈现 - 
判断 范式 ， 考 察 人 在 进行 微 表 情 识别 时 的 注视 线 
Ro MEF, 通过 眼 动 仪 记录 被 试 识别 微 表 情 的 视 
觉 扫描 特征 。 依 据 分 析 结 果 和 AU 单元 , 划分 面 
孔 刺激 材料 的 兴趣 区 域 ,判断 微 表情 识别 时 重要 
的 提取 线索 区 域 , 并 进一步 分 析 该 区 域 的 视觉 扫 
描 特 征 。 

在 微 表情 识别 的 加 工 过 程 中 , 不 同 阶段 的 注 
意 朝向 不 同 。 我 们 通过 借鉴 国 下 情绪 启动 方式 的 
研究 来 分 析 微 表情 识别 的 注意 力 变化 机 制 。 在 研 
究 过 程 中 , 通过 实验 验证 ， 微 表情 识别 被 分 为 两 
个 阶段 , 分 别 为 无 意识 情绪 启动 阶段 和 情绪 知觉 
理解 阶段 。 采 用 ERP 实验 , 探讨 在 情绪 不 一 致 时 
微 表情 识别 的 脑 加 工 机 制 。 

通过 以 上 的 心理 学 理论 研究 和 实验 , 我 们 可 
以 获得 有 效 且 细 化 的 微 表 情 认 知 过 程 中 兴趣 区 域 
变化 过 程 ， 以 及 大 脑 注 意 力 机 制 的 启动 和 决策 过 
程 ， 从 而 帮助 微 表情 检测 系统 实现 全 局 一 局 部 一 
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全 局 的 针对 微 表 情 注 意 力 机 制 设 计 。 

(2) 针 对 微 表情 检测 的 注意 力 机 制 设计 

由 于 微 表 情 特征 是 局 部 分 布 在 人 脸 上 的 ， 同 
时 具备 强度 低 和 持续 时 间 短 的 特点 ， 引 和 注意 力 
机 制 将 有 助 于 系统 对 微 表 情 特征 的 提取 。 特 别 是 ， 
不 同 的 微 表情 对 应 的 重点 脸 部 区 域 可 能 会 不 同 。 
例如 , 已 有 人 研究 表明 对 于 高 兴 的 面部 表情 ， 嘴 部 
区 域 的 动作 更 加 重要 ; MA PERR, 眼睛 
区 域 的 动作 更 加 明显 (Eisenbarth & Alpers, 2011)。 
针对 微 表情 的 注意 力 机 制 模 块 设计 如 图 6 ras, 
根据 心理 学 的 微 表情 认 知 机 制 ,从 输入 信息 中 得 
到 重点 区 域 , 并 由 通道 域 的 注意 力 机 制 进 行 重点 
关注 ， 随 后 依次 通过 时 空 注意 力 模 块 ， 提取 微 表 
情 的 有 效 特征 ， 再 依据 心理 学 的 决策 机 制 ， 最终 
得 到 合理 的 融合 性 全 局 特征 。 此 外 ,通过 引入 注 
意 机 制 和 无 注意 机 制 的 对 比 实 验 ， 验 证 微 表 情 识 
别 注 意 研 究 的 可 靠 性 。 
3.2.2 ”多 分 支 自 监督 学 习 模 型 的 微 表 情 检 测 研究 

由 于 已 标注 的 微 表 情 样 本 有 限 ， 本 研究 提出 
在 大 量 的 无 标注 人 脸 及 表情 视频 中 进行 自 监督 学 
3J, 通过 构建 针对 微 表 情 特 征 的 辅助 任务 ,实现 
在 下 游 的 微 表 情 检测 任务 。 微 表情 是 一 个 短暂 的 
局 部 面部 动作 ,除了 空间 特征 ， 其 时 域 变化 特征 
对 微 表情 检测 也 很 重要 。 本 研究 通过 构建 多 分 支 
自 监督 学 习 模 型 ,提取 视频 样本 的 时 空 特征 ， 包 
括 结 构 信 息 、 细 节 信 息 、 动 态 变 化 模式 和 深度 几 
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结合 人 类 注意 机 制 ”| 基于 兴趣 区 域 视频 片段 的 特征 


与 计算 机 视觉 的 微 表 情 


通道 特 时 空 
6-220 


图 6 结合 心理 学 认 知 与 计算 机 视觉 的 微 表情 注意 力 模块 


何 信息 ， 从 而 实现 无 监督 的 微 表 情 检测 。 

1) 受 到 心理 学 人 类 注意 机 制 的 启发 , 针对 人 
脸 微 表情 局 部 分 布 的 特征 ， 本 研究 设计 了 基于 兴 
趣 区 域 视频 的 排序 及 补 全 的 类 魔方 辅助 任务 ， 分 
别 在 视频 中 提取 对 应 心理 学 认 知 全 局 决策 的 结构 
言 息 和 对 应 局 部 注意 的 细节 信息 。 该 类 魔方 辅助 
任务 可 以 构建 具备 提取 视频 结构 和 细节 特征 能 
的 自 监督 网 络 , 并 且 优 化 微 表情 检测 方法 的 全 局 - 
局 部 策略 。 如 图 7 所 示 , 首先 将 常见 发 生 微 表情 
的 局 部 区 域 从 人 脸 图 像 中 分 离 出 来 , 通过 随机 排 
序 规则 ,使 模型 在 大 量 的 样本 训练 中 学 习 图 像 的 
结构 信息 。 此 外 , 为 了 学 习 人 脸 动 作 在 时 间 上 的 
变化 ， 本 文 将 人 脸 视 频 按照 时 间 窗 口 进行 分 割 ， 
和 空间 的 人 脸 局 部 区 块 结合 ,实现 时空 结 构 特 征 
的 提取 。 其 次 , 在 获取 人 脸 视 频 结构 信息 的 同时 ， 
通过 补 全 视频 片段 辅助 任务 来 获取 人 脸 视 频 的 细 
节 人 信息。 我 们 通过 随机 裁减 掉 一 个 兴趣 区 域 ,在 
网 络 学习 局 部 区 域 视频 结构 特征 的 同时 ， 利 用 上 自 
编码 器 网 络 对 缺失 视频 的 重 构 和 补 全 来 学 习 对 应 
区 域 的 细节 信息 。 

2) 相 同类 型 的 表情 ， 由 于 个 体 差 异 ( 人 种 、 年 
龄 、 性 别 等 )、 面 部 肌肉 运动 单元 强度 不 同等 因 
mR, 存在 不 同 的 表现 形式 。 受 启发 于 一 维 信 号 动 
态 时 间 规 整 (Dynamic Time Warping, DTW) 以 及 
图 像 的 非 监督 增强 匹配 技术 在 小 样本 问题 中 的 
应 用 ,本 研究 提出 基于 视频 的 非 监督 增强 匹配 
网 络 设 计 ， 借 助 时 空 结构 保持 的 特性 ， 通 过 已 知 


表情 和 新 出 现 表情 视频 样本 的 对 比 ， 实 现 跨 表 
现形 式 的 特征 匹配 。 这 样 的 时 空 结构 匹配 使 得 网 
络 具备 提取 视频 时 空 动 态 变化 模式 的 能 力 ， 并 
且 与 心理 学 微 表 情 认 知 局 部 一 全 局 匹配 的 过 程 
相 呼 应 。 

3) 基 于 深度 相机 采集 的 深度 图 ,我们 获取 了 
针对 微 表 情 视 频 样本 的 深度 信息 。 连 续 帧 在 同一 
区 域 的 深度 值 变化 体现 了 当前 区 域 的 人 脸 几 何 变 
化 信息 。 并 且 基 于 心理 学 发 现 ， 人 的 深度 视觉 是 
人 对 物体 认 知 的 重要 参考 因素 。 同 时 ,在 基于 人 
类 注意 机 制 的 人 脸 兴 趣 区 域 中 , 一 方面 , 深度 信 
县 将 有 区 别 于 其 他 区 域 的 更 明显 的 变化 ,一 方面 ， 
检测 系统 本 身 也 会 通过 集中 关注 这 些 区 域 从 而 获 
得 更 有 效 的 微 表情 动作 信息 。 因 此 ， 本 研究 利用 
深度 信息 设计 自 监督 学 习 辅 助 任务 ， 能 够 提升 模 
型 捕捉 运动 信息 的 能 

基于 上 述 三 种 辅助 任务 ,本 研究 搭建 了 一 个 
基于 人 类 注意 机 制 的 多 分 支 自 监督 学 习 模 型 。 通 
过 在 大 量 无 标注 视频 样本 进行 三 个 辅助 任务 的 训 
练 ,使 得 模型 具备 在 人 上 脸 视频 中 提取 兴趣 区 域 的 
结构 特征 + 细节 特征 (类 魔方 任务 )、 视 频 动态 变化 
模式 ( 非 监督 增强 匹配 ) 和 几何 信息 (深度 信息 估计 ) 
的 能 力 。 由 此 ， 如 图 8 所 示 , 本 人 研究 得 到 能 够 提取 
时 空 特征 的 多 分 支 自 监督 学 习 模 型 ,结合 针对 基 
于 微 表情 认 知 的 注意 力 模 块 , 通过 微调 和 结合 
局 注意 力 机 制 的 特征 细 化 , 实现 下 游 任务 的 微 表 
情 检 测 。 
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图 7 基于 类 魔方 辅助 任务 的 自 监督 网 络 框架 


下 游 任 务 - 微 表情 检测 


pe 


预 训练 阶段 -辅助 任务 
大 量 无 标注 视频 样本 


多 分 支 自 监督 习 模 型 


基于 注意 力 机 制 的 
多 分 支 特征 融合 


微 表情 检测 


图 8 结合 人 类 注意 机 制 的 多 分 支 自 监督 学 习 的 微 表 情 检 测 
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本 研究 提出 的 和 目 监督 学 习 模型 通过 三 个 并 行 
的 分 文 辅助 任务 ， 从 平面 结构 、 平 面 细 节 、 时 空 
动态 变化 和 运动 集合 信息 的 四 个 维度 ， 全 面 地 提 
取 了 样本 时 空 特征 ， 从 而 实现 下 游 任务 的 微 表 情 
检测 。 同 时 , 在 注意 力 机 制 部 分 ， 每 个 自 监督 网 络 
的 分 文通 过 结合 本 人 研究 提出 的 人 类 注意 机 制 模块 ， 
增强 了 微 表 情 的 特征 提取 性 能 和 全 局 特征 融合 的 
能 力 ， 并 在 最 后 通过 注意 力 机 制 融合 并 细 化 的 多 
分 文 特 征 ， 得 到 最 具 表 征 性 的 微 表 情 特 征 。 

本 人 研究 提出 的 基于 人 类 注意 机 制 的 多 分 支 自 
监督 学 习 模 型 ， 克服 了 小 样本 问题 对 微 表情 人 研究 
的 限制 ,并 为 后 续 适 应 不 同 场景 的 微 表 情 检 测 提 
供 可 能 。 


4 理论 构建 与 创新 


微 表 情 检测 在 次 度 学 习 领 域 的 发 展 受 到 了 小 
样本 问题 的 限制 。 本 文 将 计算 机 视觉 技术 与 认 知 
心理 学 行为 实验 方法 相 结合 ， 自 主 研发 具有 重要 
科学 研究 和 实际 应 用 价值 的 微 表 情 智能 检测 系统 。 

(a) 基 于 微 表 情 认 知 过 程 ， 通 过 对 其 注意 力 资 
源 的 研究 ,探索 了 针对 微 表 情 局 部 短暂 的 时 空 特 
征 的 多 维度 注意 力 机 制 , 优化 了 网 络 特征 提取 的 
能 力 ,在 受 限于 微 表 情 样 本 容量 小 的 情况 下 ， 增 
强 了 微 表 情 检 测 系 统 的 敏感 度 和 可 靠 性 。 

(b) 首 次 将 自 监 督学 习 方 法 引入 到 微 表情 检测 
模型 构建 中 , 通过 在 大 量 无 监督 视频 中 利用 辅助 
任务 构建 具备 提取 微 表情 时 空 特征 的 模型 ， 实现 
下 游 任务 - 微 表 情 的 检测 ， 从 而 避免 了 标注 样本 
量 小 带 来 的 限制 。 此 外 ,无 监督 微 表情 检测 系统 
的 实现 能 够 在 日 常 视频 中 挖 据 微 表情 样本 ,扩充 
数据 量 ， 帮 助 解决 小 样本 问题 。 

(c) 首次 结合 深度 信息 对 微 表 情 分 析 进 行 研 
究 ， 并 构建 结合 深度 图 的 自 监督 学 习 模 型 ,开展 
多 模 态 微 表情 检测 研究。 
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Micro-expression spotting method based on human attention mechanism 
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Abstract: Micro-expressions are facial movements that are extremely short and not easily perceived, 
revealing the individual's hidden real emotions, and could be widely used in lies detection and other fields. 
The automatic research of micro-expression spotting is mainly limited by the small sample size. This project 
will address this problem by comprehensively using computer vision technology and cognitive psychology 
experimental methods. First, a behavioral-experimental paradigm combining eye-movement techniques and 
a presentation-judgment paradigm with subthreshold emotion priming effects was used to examine the 
cognitive mechanisms of selective attention allocation in micro-expression recognition and to refine the 
characteristic regions of interest in human recognition of micro-expressions. Second, based on the human 
attention mechanism, we propose a micro-expression spotting method based on a multi-branching 
self-supervised learning network, extracting structure-based, detail, spatio-temporal variation, and depth 
features of video samples. This research will achieve theoretical and technological breakthroughs in the 
field of automatic micro-expression spotting, and lay the foundation for the application of micro-expression 
spotting in realistic and complex scenarios. 

Key words: micro-expression spotting, small sample problem, human attention mechanism, self-supervised 


learning, depth information 


